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基于 和 矩阵 保留 策略 的 邻 域 粗 糙 集 属性 约 简 算法 


高 ” 阳 ， 刘 遵 仁 ， 纪 R 
(青岛 大 学 计算 机 科学 技术 学 院 ,， 山东 青岛 266071) 


摘 要 : 属性 约 简 对 于 数据 处 理 来 说 意义 重大 。 在 基于 邻 域 粗糙 集 的 属性 约 简 算 法 中 ， 正 域 计算 是 保证 其 有 效 性 的 重 
要 依据 ， 也 是 影响 其 时 间 开 销 的 最 主要 部 分 。 为 了 减少 算法 时 间 开 销 ， 通 过 对 现 有 算法 FHARA 的 正 域 计算 进行 改进 ， 
采取 保留 策略 ， 利 用 纸 阵 保留 度量 计算 值 的 平方 ， 将 原本 了 维 上 的 计算 改进 为 1 维 上 的 计算 ， 从 而 缩减 了 每 次 度量 计 
算 的 计算 时 间 ， 并 在 此 基础 上 提出 了 基于 短 阵 保留 策略 的 邻 域 粗 糙 集 属性 约 简 算 法 ， 最 后 通过 多 个 UCI 数据 集 验 证 了 
该 算法 。 与 现 有 算法 相 比 较 ， 实 验 结果 表明 ， 对 大 部 分 数据 集 而 言 ， 该 算法 能 有 效 且 更 快速 地 得 到 数据 集 的 属性 约 简 。 
关键 词 : 邻 域 粗 糙 集 ; 正 域 ; 属性 约 简 ; 快速 算法 
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Neighborhood rough set attribute reduction algorithm based on matrix reservation strategy 


Gao Yang, Liu Zunren, Ji Jun 


(College of Computer Science & Technology, Qingdao University, Qingdao Shandong 266071, China) 


Abstract: Attribute reduction is of great importance for data processing. For an attribute reduction algorithm based on the 
neighborhood rough set model, the calculation of the positive region is the necessary basis of its efficient performance and the 


uppermost part of its time cost. In order to reduce the time overhead of the algorithm, this paper improved the positive domain 


calculation of the existing algorithm FHARA, adopted the reservation strategy and used the matrix to preserved the square of 
the calculated values. The original n-dimensional computation was improved to 1 dimensional computation, which reduced the 
computation time of each metric calculation. On this basis, this paper proposed a neighborhood rough set attribute reduction 
algorithm based on the matrix reservation strategy. Finally, the algorithm was verified by multiple UCI data sets. Compared 
with existing algorithm, the experimental results show that for most data sets, the algorithm can get the attribute reduction of 
the dataset more effectively and quickly. 
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基本 框架 。Lin 负 在 信息 粒 化 、 粒 度 的 基础 上 提出 了 和 邻 域 模型 的 
概念 。 胡 清华 等 人 中 在 对 基本 邻 域 信息 粒子 进行 邻 域 粒 化 和 粗 

随 着 信息 技术 的 高 速 发 展 ， 人 们 不 仅 面 临 着 数据 量 爆 炸 的 糙 逼 近 的 基础 上 ， 提 出 了 和 邻 域 信息 系统 和 邻 域 决策 表 模 型 。 最 
问题 ,还 有 更 重要 的 数据 的 高 维度 问题 , 而 处 理 高 维 数据 时 ,“ 维 后 ， 经 过 各 方 研究 后 提出 的 邻 域 粗 糙 集 模型 方法 将 经 典 粗 糙 引 
度 灾难 ”现象 十 分 普遍 趾 。 因 此 ， 属性 约 简 对 于 一 个 数据 量 庞大 的 等 价 近似 与 邻 域 逼近 相 结 合 ， 使 之 能 够 同时 支持 数据 型 和 离 
的 数据 集 而 言 是 十 分 有 意义 的 ,可 以 减 小 维 数 灾难 造成 的 影响 。 散 型 两 种 数据 类 型 ， 扩 大 了 粗糙 集 理论 的 应 用 范围 上 3 。 
粗糙 集 理 论 在 数据 的 属性 约 简 方面 得 到 了 广泛 的 应 用 。 经 但 是 与 经 典 的 Pawlak 粗粮 集 不 同 , 邻 域 粗糙 集 模型 定义 了 

的 Pawlak 粗糙 集 口 定义 在 经 典 的 等 价 划分 和 等 价 类 基础 上 ， 样本 间 的 5- 邻 域 ,在 对 邻 域 粗糙 集 的 正 域 进行 计算 时 ， 需 要 遍 
保证 了 粒度 计算 的 进行 .这 种 处 理 方式 只 适合 处 理 离散 型 变量 ， 历 所 有 样本 ， 通 过 度量 计算 来 确定 样本 的 5- 邻 域 关 系 ， 因 此 邻 
j 对 于 现实 应 用 中 广泛 存在 的 数值 型 数据 类 型 处 理 时 ， 需 要 将 域 实数 空间 下 的 计算 量 要 比 经 典 离散 空间 下 的 计算 量 大 得 多 
数值 型 数据 进行 离散 化 , 这 种 处 理会 改变 数据 原始 的 属性 性 质 ， 9-131， 这 导致 了 基于 邻 域 粗糙 集 的 属性 约 简 算法 在 处 理 数据 时 
造成 信息 损失 ， 而 离散 化 的 方法 不 同 又 会 使 得 处 理 结果 不 同 ， 往往 时 间 开 销 过 大 的 现象 。 
这 严重 制约 了 粗粮 集 理论 的 应 用 。 为 了 解决 这 一 问题 Zadeh” 为 了 缩减 时 间 开 销 , Hu 等 人 外 提出 了 基于 前 向 贪心 策略 的 
提出 了 信息 粒 化 和 粒度 计算 的 概念 ， 并 给 出 了 进行 粒度 计算 的 属性 约 简 算法 F2HARNRS(fast forward heterogeneous attribute 
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reduction based on neighborhood rough sets)。 随 后 Liu 等 人 09 对 
该 算法 的 正 域 计 算 进 行 了 改进 ， 提 出 了 更 快速 的 属性 约 简 算法 
FHARA (fast hash attribute reduct algorithm), 减少 了 FZHARNRS 
算法 的 正 域 计 算 时 间 开 销 。 

基于 以 上 研究 ， 本 文 对 FHARA 算法 进行 了 改进 ， 采 用 和 拢 
阵 保 留 样本 间 的 度量 计算 ， 使 得 增 维 后 只 需 做 1 维 上 的 度量 计 
算 ， 从 而 减少 了 正 域 计 算 的 计算 量 。 通 过 与 FHARA 算法 比较 ， 
实验 证 明 该 算法 能 够 更 快速 地 得 到 数据 集 的 属性 约 简 。 


1 基本 概念 


134 邻 域 粗糙 集 
定义 1 给 定 n 维 实数 空间 Rr ， 对 于 空间 中 的 任意 两 个 点 


x = (Xia xs) IL meet) > REL d (xx) Rm Eft 
个 度量 计算 ， 满 足 


1 


n 5.12: 
d(x, x)= > — Xy, 
p 


RH 
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除了 元 余 属 性 ， 寻 找 最 小 拓 


定义 6D] 


则 称 8 是 一 个 


Poss (D) < Poss (D) 3 


2.1 


独立 属性 子 集 ; 


性 约 简 是 一 个 NP-Hard 问题 。 
给 定 有 限 集合 BcC， 若 满足 Pos 
如 果 对 vaeB , 
则 称 8 为 C 的 一 个 属性 约 简 
F2HARNRS 算法 和 FHARA 算法 介绍 


s(D)= Pos (D) ， 


HJ o 


贪心 策略 能 够 在 较 少 时 间 内 求解 最 优 解 或 次 优 解 .Hu 等 人 


定义 7 中 
VaeC-B, XJR 


四 首先 根据 依赖 性 函数 定义 了 条 件 属性 对 分 类 的 贡献 ， 称 之 为 
遇 性 重要 度 ， 可 以 作为 属性 集合 重要 性 的 评价 指标 ;然后 根据 
遇 性 重要 度 指 标 构造 了 一 种 基于 邻 域 粗 糙 集 的 前 向 贪心 属性 约 
即 F2HARNRS 算法 。 
给 定 邻 域 决策 系统 NDT=(U,CUD,V,f), VBeC ， 


性 a 相对 于 集合 B 的 属性 重要 度 为 


SIG(a, B,D)= y ,(D) - y (D) 


上 式 等 价 于 
SIG(a, B,D)=|Possu,(D)|-|Poss(D)| 
F2HARNRSO 算 法 的 基本 思想 是 : 初始 化 约 


定义 271 对 于 一 个 给 定 的 实数 空间 上 的 非 空 有 限 集合 


mH EH, 


U-[x.x...x), EPU 为 论 域 。 对 于 UU 上 的 任意 样本 ,定义 
其 5- 邻 域 为 6G%)={xj xeU,d(%,x)<5} ， 其 中 5>0 。5(%) 称 为 
太 生 成 的 5 邻 域 信息 粒子 ， 简 称 为 的 邻 域 粒子 。 
1.2” 邻 域 决 策 系统 

定义 3 ”对 于 四 元 组 NDT=(U,A,V,f)， 其 中 U0 是 论 域 ; 
A=CUD,C 是 条 件 属性 ,D 是 决策 属性 ， 且 CND= 9, CØ, 
DØ; V 是 信息 函数 f 的 值 域 ，f ÆUxA>V 的 映射 ， 那么 
称 这 个 四 元 组 为 邻 域 决策 系统 。 

定义 4 对 于 一 个 给 定 的 邻 域 决策 系统 
NDT-(U,CUD.V,f), DU 划分 为 N 个 等 价 类 : DD) Dy, 
VBeC ， 定 义 决策 属性 D 关于 8 的 下 近似 和 上 近似 为 


其 中 ， 


N,D, ={%16s(%) C D. x, eU] ? 


N,D, - (x, | (x) ND, € OG, x, eU) 


根据 定义 1: 
8s &) = {x| dB), BCO<oxzsU 
定义 决策 属性 集 D 关于 8 的 边界 域 为 BND) - N,D- N,D , 
正 域 为 Poss(D)= NsD 。 
定义 5 根据 定义 4， 进 一 步 定 义 决策 属性 D 对 8 的 依赖 
性 为 : 


E 


Ys (D) =|Poss(D)|/ U| 
2 ” 邻 域 粗粮 集 属性 约 简 算法 
对 一 个 给 定 的 数据 集 ， 如 何 设计 以 及 利用 有 效 的 算法 来 删 


样本 个 数 
性 的 重要 度 全 为 0 


此 时 决策 属性 对 集合 的 依赖 度 为 0， 每 次 计 
从 中 选取 重要 度 最 大 的 属性 
曾 加 最 大 的 属性 加 入 到 约 简 集合 中 ， 直 到 所 有 剩余 属 

if 正 域 中 时 ， 此 时 加 入 新 


| 算 全 部 剩余 属性 的 
， 即 让 当前 正 域 中 


简 集 合 为 空 集 ， 


， 即 样本 全 划 入 当 六 


大 的 属性 ， 


的 依赖 度 为 1， 即 当 六 


的 属性 函数 依赖 值 保持 不 变 。 输 出 集合 ， 此 时 决策 属性 对 集合 
痢 正 域 为 论 域 。 这 种 算法 保留 了 


an 
c 
EI 


相当 于 保证 核 不 被 约 简 。 其 中 ， 当 六 
原本 属于 正 域 的 样本 不 会 变 为 非 正 域 样本 ， 因 出 


Jml 
p 
f W 
TOW 
xin 


加 属性 时 ， 
Et， 在 算法 的 计 


B 


算 过 程 中 ， 


每 次 只 


减少 了 样本 判断 次 数 。 


需 对 还 未 判定 为 正 域 的 样本 进行 正 域 计 算 ， 


F2HARNRS 算法 的 正 域 计算 可 以 表示 为 图 1。 样本 + 需要 


和 论 域内 所 有 样本 做 度量 计算 ， 则 


之 后 Liu 等 


算法 的 正 域 计算 方法 ， 
FHARA 算法 的 正 域 计算 方法 : 


Bi 2 (xi| Yxi EU ALf Gc 


图 1 F2HARNRS 算法 的 正 域 计算 


10 在 Hu 等 人 外 的 基础 上 改进 


是 出 了 更 快速 的 FHARA 算法 。 


时 间 复 杂 度 为 ooz|Z) 。 


了 FE2HARNRS 


利 
»,3)/ 8 =k Ye ior I REA 


] Bk A ER 


" 
| 分 到 有 限 集合 


Bo,B,…,Br 中 ， 其 中 % 是 论 域 U 中 的 一 个 特殊 样本 ， 其 定义 为 
xo={xo| Ya e C,a(xo) = minfa(x)]} ，xieU 。 如 果 样 本 weB，, 那么 5- 
邻 域 只 存在 于 BuU BiU Bai rfe 

FHARA 算法 的 正 域 计算 可 以 表示 为 图 2。x* 只 需 和 自身 所 
在 集合 以 及 相 邻 集合 中 的 样本 做 度量 计算 ， 其 时 间 复 杂 度 为 
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个 样本 ， 且 约 简 结果 


增加 


Imp +2.(m-1) 


图 2 FHARA 算法 的 
根据 以 上 算法 分 析 


EH 


计算 


a 
"J 


， 假设 某 一 数据 集中 包含 mn 个 属性 ，|U| 


四 个 样本 ， 则 算法 最 大 计算 量 为 


包含 上 个 属性 ， 每 增加 一 个 属性 正 域 中 


uf eee Qn-E) Uf 


2.2 d FEEURETRER B SISLCRE S s Is Pk 2) (8) 83:22 
分 析 上 述 算法 的 最 大 计算 量 


司 维 数 下 的 度 


x(x Xp xja) 在 2 


d,(x,,x;) =|(a E +(x 


*j (xn. Xp xj) 在 3 


维 


时 可 知 ， 在 算法 计算 过 程 中 ， 不 
量 计算 是 互相 独立 的 。 例 如 ， 样 本 x (xx) 和 
空间 上 的 度量 计算 为 


-z) f , 其 增 维 后 的 样本 x; (Xa as Xs) 和 


HE 


i 上 


的 度 


1 


E 
HB, 


iX 为 


ds (Xi,X)) -((s =X; y +(x exul * (xs -on o 


然而 这 两 次 度量 


d,(x, x) - (a.c p) + (xs -xa f : 


保留 之 前 的 


度量 计算 dx), 


dG.x;) 只 需要 做 1 维 


上 的 计算 


维 上 的 计算 。 
同 理 , HE) 至 


在 n 维 空间 
1 维 上 的 度量 计算 。 


法 的 度量 计算 需要 做 nel 维 


n 维 ， 当 样本 增加 至 
上 的 计算 ， 
上 的 度量 计算 保存 下 来 ， 那 么 增 至 n+l 维 时 只 
pn 


计算 显然 是 


有 联系 的 ， 即 


C 
高 : TERE Rh 


可 知 ， 度 量 计算 的 耗 时 和 度量 计算 次 数 主要 影响 


时 间 开 销 。 


以 上 策略 的 优点 在 于 : 在 度量 


pi na aV 


m 


向 着 算法 的 
计算 次 数 不 变 的 情况 


下 ， 将 每 次 度量 计算 过 程 中 原本 n 维 上 的 计算 改进 为 1 维 


计算 ,缩减 了 每 次 度 
时 间 开 销 的 目的 。 
改进 后 的 正 域 计 算 Pos(U.a U D.ó, dist) 
算法 1 


Input: 


量 计算 的 计算 时 间 ， 


NDT =(U,aUD,V, f). 


Output: 正 域 Pos . 


Step 1 for each x EU 
Hash(P(x,), B,) ; 
end for 
Step 2 初始 化 pos = Ø 
Step 3 for each x eU (x €B,) 
flag-0; 


for each x; € B. UB, UB,, 


上 的 
从 而 达到 了 缩减 算法 


如 算法 1 所 示 。 


if dist(z.x,) - (a, 一 OO) <8 & & Dx) + Dx) 


flag-1; 
break; 
end if 
end for 
if (flagzl) 
pos «- x 5 
end if 
end for 


Step 4 


其 中 ，Step 1 中 的 映射 函数 为 Be= {x | Vx 


return Pos 


EU A[f (xo xi) ó 2 k]) o 


寻 此 ， 如 果 在 计算 4G%,x)) 前 
ms C disi) ER x Bs 的 度量 计算 值 。 根据 算法 1， 每 次 正 域 计算 
那么 增 维 后 样本 间 的 度量 计算 。 ”只 需要 做 1 维 上 的 度量 计算 ， 即 (4 ay. 
结合 算法 1 Pos(U,aUD,5,dist) ， 下 面 给 出 FARBMRS 算法 
B (xs -xzp) ， 而 不 必 做 原本 3 人 


n+l 维 时 ，FHARA 算 


ift a 


保留 策略 将 样本 
ZN 需 做 


上 ， 本 文 对 FHARR 算法 的 正 域 计算 作 
出 改进 ， 然 后 提出 基于 矩阵 保留 策略 的 邻 域 粗 糙 集 


快速 属性 约 


简 算 法 (fast attribute reduction based on matrix reservation 


strategy, FARBMRS). 


针对 以 上 分 析 ， 提 出 以 下 保留 策 


改进 : 设 当前 属性 约 简 集合 


对 于 red 的 重要 度 之 前 ， 
所 需 计 算 样本 间 的 度量 计算 , 并 且 用 矩阵 dist[V xU] 对 所 求 出 的 


先 在 red 下 做 还 未 


略 。 


red eC , 在 求 属性 va e C — red 相 


度量 计算 值 的 平方 进行 


的 相对 于 red 重 
上 的 度量 计算 值 即 可 。 


保存 ， 那 么 在 
要 度 时 只 需 从 矩阵 中 找 出 


T. 


判定 为 正 域 的 样本 与 


后 求 属性 Va e C — red 


再 加 上 1 如 


相应 值 ， 


的 具体 步 又， 如 算法 2 Bra. 
算法 2 
Input: NDT-(U,CUD.V,f). 

Output: 属性 约 简 red . 

Step 1 初始 化 dist[U xU] , 

H max pos-O ， 重 要 度 最 大 属性 max i—-O 


Step 2 


red=Ø ， 


while smp. chk z 
max. pos —-( ; 


for each k, e(C-red) 


Pos, = Pos (smp Chk,k, UD,s, dist) H 


if [max _ pos| $ |Pos,| 
max_ pos = Pos, 5 
max i-k; 

end if; 

end for 


if max posz(Ó 


待 检验 样本 smp chk-U ， 当 前 


E 
FH 
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C 


red = red U max. i ; 


smp _chk = smp _chk - max _ pos 


dist = dist; 5 
else 
break; 
end if 
end while 
Step 3 return red 
在 算法 2 P , dsi 的 更 新 公式 为 


dist, (i, j) — dist,, (i j) (a; a) « 


在 该 算法 下 , ECC Án 


Tt 


样本 ， 则 算法 最 大 计算 量 为 


san 
k 


1-m|u[ +1- (m-1) = luf + 


emu i Ef eei Lpf 
k k 


中 包含 mm 个 属性 , 四 个 样本 ， 


个 属性 , 每 增加 一 个 属性 正 域 中 增加 四 个 


通过 以 上 对 FARBMRS 算法 的 最 大 计算 量 的 分 析 可 知 ， 在 
约 简 集合 red 增 维 的 过 程 中 ，FARMRS 算法 的 正 域 计 算 每 次 仅 
需 做 1 维 上 的 度量 计算 ， 以 及 增加 度量 计算 前 的 dstrw 计算 。 总 
的 来 说 ，FARBMRS 算法 增加 的 计算 量 小 于 减少 的 计算 量 ， 而 


FHARR 算法 每 次 的 正 域 计算 都 需要 进行 4 维 的 计算 ， 
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ji; 1 AP 


去 


本 次 实验 在 一 台 Intel? Core™ i5 CPU 和 4 GB 内 存 的 PC 


机 上 ， 采 用 
仿真 。 
3.2 5 的 取 值 


在 计算 各 邻 域 样本 时 ， 5 是 一 个 关键 的 参 
生 约 简 的 结 
的 取 值 太 大 ， 会 导致 大 部 分 样本 划分 在 同一 邻 域内 
得 到 的 约 简 属性 偏 少 ， 如 果 5 的 取 值 太 小 ， 会 


接 影响 着 属 


I 


Windows 10 环境 下 的 MATLAB R2016b 进行 算法 


BE 


， 它 的 取 值 直 


果 。 对 于 某 一 条 件 属 性 集合 而 言 , 如果 5 


性 偏 多 。 


ES 


对 于 不 同 数 据 集 


5 取 值 偏 大 或 仿 
或 粗粮 集中 ， 


， 使 得 最 后 
使 得 最 后 约 简 属 


小 得 到 的 属性 约 简 都 不 甚 理想 。 
5 一 般 采 用 点 值 式 的 取 值 方法 3 玉 ， 
[分 类 器 来 说 有 不 同 的 效果 。 本 文采 用 文献 [12] 


中 提出 的 采 


标准 


EZ BE 


程度 的 一 种 度量 
均值 ， 此 时 需要 


标准 


C216: 256, 


x 


为 邻 域 
差 需要 设 定 较 大 的 5 值 。 首 先 取 每 一 列 属性 值 的 标准 差 ， 
再 将 这 些 标准 差 取 标准 差 作 为 5 值 ， 
, 那么 5 


= 5 的 取 值 。 标 准 差 是 数据 平均 值 分 散 


较 小 的 标准 


E 差 代表 大 部 分 数据 都 接近 平 


设 定 较 小 的 5 值 ， 反 之 ， 而 一 个 较 大 的 


的 取 


即 假设 条 件 属 性 


E 公 X 为 


5=c(tc(G),c(C)…a(C))。 大 部 分 分 类 器 在 这 种 5 取 值 下 可 以 
获得 良好 的 分 类 性 能 ， 分 类 效果 较为 理想 。 


3.3 实验 结果 


3.3.1 FARBMRS 算法 的 有 效 性 


为 了 去 掉 量 纲 对 数据 的 影响 ， 先 对 样本 数据 进行 归 


因此 


FARBMRS 算法 计算 量 少 于 FHARR 算法 的 计算 量 ， 在 理论 上 


减少 了 时 间 开 销 。 
3 ”实验 分 析 


销 的 差别 作出 了 对 比 , 验证 了 算法 的 


在 实验 部 分 ， 首 先 对 FARBMRS 和 FHARA 算法 在 时 间 开 
效 性 ; 然后 对 FARBMRS 


算法 相对 于 FHARA 算法 的 效率 作出 分 析 。 


3.1 实验 环境 


UCI (University of California Irvine) 提供 了 一 系列 用 于 测 


试 的 标准 数据 集 。 为 了 验证 FARBMRS 算法 的 有 效 性 ， 从 UCI 
数据 集中 选取 了 八 个 具有 代表 性 的 数据 集 作 为 实验 数据 ， 描 述 
如 表 1 所 示 。 
表 1 数据 集 描述 
编号 数据 集 样本 数 属性 数 类 别 数 

1 Wine 178 13 3 

2 Ionosphere 351 34 2 

3 Libras movement 360 90 15 

4 WDBC 569 30 2 

5 Credit Approval 690 14 2 

6 German Credit 1000 19 2 

7 Biodeg 1055 41 2 

8 Segmentation 2310 19 7 


里 。 JR dE 32 


节 中 的 分 析 ， 


化 处 
本 次 实验 取 


5=c(c(c),c(C)…c(C)) , 3 FARBMRS fll FHARA 算法 各 执 


fT 10 次 ， 统 计 各 


小 值 作为 最 后 的 运行 时 


的 属性 约 简 和 运行 时 间 ， 


两 种 算法 得 至 


H. 


I 的 属性 约 简 如 表 2 所 示 。 


并 取 10 次 中 的 最 


表 2 算法 得 到 的 属性 约 简 
数据 集 FHARA 算法 FARBMRS 算法 
Wine 13,10,7,5,11,1 13,10,7,5,11,1 
Ionosphere 3,31,24,16,4 3,31,24,16,4 
Libras movement 63,72,17,40 63,72,17,40 
WDBC 23,22,28,9,25 23,22,28,9,25 
14,7,2,3,6,5,8,9, 14,7,2,3,6,5,8,9, 
Credit Approval 
11,4,1,12,13 11,4,1,12,13 
2,4,10,3,6,1,9,7, 2,4,10,3,6,1,9,7, 
German Credit 
8,11,5 8,11,5 


Biodeg 


Segmentation 


7,3,38,37,1,14,35, 
8,13,10,9,12,2,31, 
22,33 
19,16,11,13,17, 
14,1,18,2,6,5,4,8, 
10,12,15,7 


7,3,38,37,1,14,35, 
8,13,10,9,12,2,31, 
22,33 
19,16,11,13,17, 
14,1,18,2,6,5,4,8, 
10,12,15,7 


根据 表 2 可 知 ， 在 5 取 值 相同 的 情况 下 ，FARBMRS 和 
FHARA 算法 得 到 的 约 简 结果 是 一 样 的 ， 这 训 


TO] fT RU 


I 
TAE 


EHH FARBMRS 算 


两 种 算法 的 运行 时 间 如 表 3 所 示 。 
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表 5 FARBMRS 算法 的 效率 /% 


表 3 算法 的 运行 时 间 /s 编号 数据 集 比值 

编号 数据 集 FHARA 算法 。 FARBMRS 算法 1 Wine 47.20071 
1 Wine 1.031937 0.487075 2 Ionosphere 34.68997 
2 Ionosphere 6.846643 2.375099 3 Libras movement 62.47922 
3 Libras movement 8.685433 5.426591 4 WDBC 41.31740 
4 WDBC 9.168734 3.788283 5 Credit Approval 23.38930 
5 Credit Approval 29.501807 6.900268 6 German Credit 21.08872 
6 German Credit 87.749297 18.505205 J; Biodeg 27.01603 
7 Biodeg 117.338324 31.700159 8 Segmentation 22.59560 
8 Segmentation 380.319438 85.935464 K 5 的 折线 图 如 图 4 所 示 。 


X 3 的 折线 图 如 图 3 所 示 。 


- 米 FHARA 
-9-FARBMRS 


400 


running times(s) 


o 


分 析 


对 间 小 于 FHARR 算法 的 运行 时 间 ， 


Data Sets 
图 3 两 种 算法 的 运行 时 间 折 线 


3 运行 时 间 折 线 图 可 以 看 出 ，FARBMRS 算法 的 折 
线 一 直 位 于 FHARR 算法 折线 的 下 方 ， 这 表示 FARBMRS 算法 


图 


有 更 短 的 时 间 开 销 。 


在 实验 中 统计 了 两 种 算法 的 度量 计算 次 数 ， 如 表 4 所 示 。 
表 4 算法 的 度量 计算 次 数 
编号 数据 集 FHARA 算法 FARBMRS 算法 

1 Wine 225680 225680 

2 Ionosphere 1970004 1970004 

3 Libras movement 1111901 1111901 

4 WDBC 2308687 2308687 

5 Credit Approval 8410959 8410959 

6 German Credit 27515132 27515132 

7 Biodeg 29854308 29854308 

8 Segmentation 99679854 99679854 
根据 表 4 可 知 ， 算 法 的 度量 计算 次 数 没 有 发 生变 化 。 


以 上 实验 验 说 


开销 的 分 析 。 


3.3.2 FARBMRS 算法 的 效率 
针对 各 数据 集 ， 


算法 的 运行 时 间 的 比值 作为 FARBMRS 算法 相对 于 FHARR 算 
法 的 效率 。 其 中 ， 比 值 越 低 ， 说 明 FARBMRS 算法 的 约 简 效率 


两 种 算法 


人 


] FARBMRS 算法 的 运 


运行 时 间 的 比值 如 表 5 所 示 。 


云 行 时 站 


Ef 4x 2.2 节 中 对 两 种 算法 计算 量 以 及 时 间 


司 与 FHARR 


70 


-ethe ratio of the running time 


Data Sets 


图 4 FARBMRS 算法 的 效率 折线 图 


分 析 图 4 算法 效率 折线 图 可 以 看 出 ， 折 线 波动 较 大 ， 取 值 
区 间 位 于 20%~65%， 跨 度 较 大 。 其 中 ， 大 部 分 点 的 取 值 较 低 ， 
这 表明 对 于 大 部 分 数据 集 来 襄 ，FARBMRS 算法 的 效率 较 高 。 


这 种 波动 性 与 两 种 算法 性 质 有 关 ， 因 为 在 正 域 计算 中 ， 如 果 判 


定 当 前 样本 属于 正 域 ， 则 立即 跳出 当前 循环 ， 这 说 明 数 据 集中 
样本 在 样本 空间 中 分 布 会 影响 两 种 算法 的 约 简 效果 。 相 较 于 


FHARA 算法 ， 当 FARBMRS 算法 增加 的 disi 计算 量 接近 减少 
的 度量 计算 计算 量 时 ，FARBMRS 算法 效率 较 低 ; 但 是 对 于 大 
部 分 数据 集 而 言 ， FARBMRS 算法 的 效率 较 好 。 


4 ARA 


T 


本 文 对 当前 邻 域 粗 糙 集 中 的 经 典 属性 约 简 算 法 作 分 析 ， 旬 
对 算法 对 时 间 复 杂 度 的 要 求 ， 对 其 中 的 FHARA 算法 的 正 域 计 
算 作 出 了 改进 ， 提 出 了 基于 和 拖 阵 保留 策略 的 邻 域 粗 糙 集 属性 约 
简 算法 FARBMRS， 减少 了 算法 时 间 开 销 ， 更 快速 地 求 得 数据 
的 属性 约 简 ， 且 通过 多 个 UC 标准 数据 集 的 实验 验证 ， 该 算 
去 是 有 效 且 更 快速 的 。 本 文 对 FHARA 算法 的 正 域 改进 还 可 以 
与 Lout 的 研究 相 结合 ， 进 一 步 减 少 算法 的 时 间 开 销 。 
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